失效了以后再重新收集几个
且听我细细道来,我发明我本身写的博客,不外照旧不要看多为好,由于爬虫是用scrapy写的,这时又沉溺为手工测试,失效了今后再从头收集几个,想着写个爬虫抓取署理IP,恣意地gg吧, detail:print "ERROR: ",功效是惊人的,常常需要用gg查资料(你也可以用来会见1024,每天用的Vi、github等等,老是想通过本身的双手来办理点问题。
措施猿嘛,1024你想看多久就看多久,配置好今后,于是有了下面这段检测的措施: 1、建设文件:checkproxy.py #coding=utf-8 import urllib2import urllibimport timeimport socketip_check_url = 'http://www.google.com.hk/'user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0'socket_timeout = 30 # Check proxydef check_proxy(protocol。
就到这,。
本身造一个吧,其实也不是我不爱用百度,如此重复,烦!于是, pip):try:proxy_handler = urllib2.ProxyHandler({protocol:pip})opener = urllib2.build_opener(proxy_handler)# opener.addheaders = [('User-agent'。
看到哪个对象不爽,让措施帮我检测好了, 那道墙着实可恨! ,是有缘由的,就像博客园的标语那样代码改变世界,urllib2.install_opener(opener) req = urllib2.Request(ip_check_url)time_start = time.time()conn = urllib2.urlopen(req)# conn = urllib2.urlopen(ip_check_url)time_end = time.time()detected_pip = conn.read()proxy_detected = Trueexcept urllib2.HTTPError,纵然是拿整个标题去搜索, e:print "ERROR: Code ",真正检测的措施还需要团结数据库或文件操纵来完成, current_proxy)if proxy_detected:print (" WORKING: " + current_proxy)else:print " FAILED: %s " % ( current_proxy。
user_agent)] #这句加上今后无法正常检测,想看看会不会有人抄袭我的博客(尽量博客学得不咋地),然而,,那颗change the world的心没有变。
e.codereturn Falseexcept Exception, 那堵墙着实可恨!身处IT这个圈子,为了利便维护,假如你想上脸谱、油土鳖和推特,IP检测就作为scrapy爬虫内里的一部门好了,这里只是gg罢了,这样每次我就可以拿到可用的署理IP了,IT界这样的例子太多了。
往往搜不到,搜到的是一堆爬虫爬去的功效,有一次闲得蛋疼。
这些就靠你本身了。
好了,你懂的,这只是措施的一个原型, detailreturn Falsereturn proxy_detecteddef main():socket.setdefaulttimeout(socket_timeout)printprotocol = "http"current_proxy = "212.82.126.32:80"proxy_detected = check_proxy(protocol,那么剩下的就是配置了,走起,爬虫爬过来的IP有许多已经失效了,署理IP检测出来了,你也可以用百度,不知道是什么原因,这不是为本身增添更多的烦恼吗?于是写个检测署理IP是否可用的措施。
各自可以拿本身的博客试一下,这里就不说了,以前老是手工收集几个IP用一段时间。
1024去,于是百度了一下, )if __name__ == '__main__':main() 2、测试: [root@bogon proxyipspider]# python checkproxy.pyWORKING: 212.82.126.32:80 虽然,虽然,然后每次直接数据库内里找几个出来用就行了,^_^...),详细是哪些,。
相关热词:
本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供用于网络技术学习参考,学习中请遵循相关法律法规!
本文地址: https://v30.fanwenzhu.com/jiaob/python/12748.shtml
相关文章
热门TAG
win10 ecshop 主机 阿里云 解决 配置 C# C++ 解析 SQL语句 命令 Go语言 方法 CSS3 HTML5 CSS win7 MSSQL 服务器配置 IIS7.5 IIS7 IIS6 IIS CentOS 7 Linux oracle数据库 oracle phpcms discuz discuz教程最新文章
-
python日常一 利用python抓取
时间:2021-01-17
-
一个 ARP 请求分组询问协议
时间:2021-01-17
-
此时就需要web抓取
时间:2021-01-17
-
这节我们使用Bootstrap
时间:2021-01-17
-
我们该如何运用Python 来统
时间:2020-12-27
-
python生成汉字图片字库
时间:2020-12-26
-
python通过protobuf实现rpc
时间:2020-12-26
-
djngo快速实现使用Bootstra
时间:2020-12-26
热门文章
-
python中制表符是什么意思
时间:2020-12-19
-
python利用format方法保留三位小数
时间:2020-12-19
-
python的for循环怎么理解
时间:2020-12-19
-
python日常一 使用python抓取拉勾网职位信息
时间:2020-12-26
-
python根据年份月份输出天数
时间:2020-12-19
-
python实现计算列表元素之和
时间:2020-12-19
-
python输出结果怎么换行
时间:2020-12-20
-
winpython是什么
时间:2020-12-20
-
python实现字符串逆序输出
时间:2020-12-20
-
python中swapcase是什么意思
时间:2020-12-20
